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Architecture ^interconnexion modulaire pour machine multiprocesseur 
extensible, mettant en oeuvre une hi6rarchie de bus virtuelle d plusieurs 
niveaux et la mdme brique de base pour tous les niveaux. 

5 La pr6sente invention se rapporte au domaine des machines multiprocesseurs 
a architecture symStrique comportant des m6moires a temps d'acc6s uniforme 
et a coherence d'antememoire, plus connues sous la terminologie anglo- 
saxonne "CC-UMA SMP" (Cache-Coherent - Uniform Memory Acces Symetrical 
Multi-Processor), 

10 Elle conceme plus particulferement une architecture ^interconnexion entre un 
grand nombre de processeurs organises en grappes de modules 
multiprocesseurs, appeles egalement nceuds d'un systeme informatique. 
Dans de telles machines, un ou plusieurs niveaux d'antememoire de chaque 
processeur stocke des donnees recemment acquises et qui peuvent etre 

15 reutilisees rapidement evitant ainsi des contentions pour des acc6s m6moire 
ulterieurs. 

Quand un processeur ne trouve pas les donnees souhaitees dans son 
antememoire, il emet Tadresse de la zone memoire dont il souhaite lire les 
donnees via le bus systeme. 
20 Tous les processeurs verifient dans leur antememoire si a cette adresse ils ont 
une copie des donnees la plus r6cemment mise a jour. 

Si un autre processeur a modifie les donnees, il indique au processeur 
emetteur qu'il peut recuperer les donnees contenues dans son antememoire 
plutot que de les demander a la memoire physique. 
25 Pour qu'un processeur puisse modifier une zone memoire, il doit obtenir 
I'autorisation de le faire. 

Apr6s une telle modification, tous les autres processeurs qui ont une copie des 
donnees qui viennent d'dtre modifiees, doivent invalider cette copie dans leurs 
antememoires respectives. 
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Un suivi des transactions transitant sur le bus systeme et un protocole gerant 
la coherence d'antememoire, conserveront les traces de toutes les transactions 
echangees entre les processeurs. 

On distingue de maniere classique quatre etats fondamentaux du protocole de 
5 coherence des memoires, normalise sous le code courant MESI, abreviations 
anglo-saxonnes pour "Modified state, Exclusive state, Share state, invalide 
state". 

D'une maniere generate, la gestion des echanges entre les memoires d'un 
systeme irrformatique consists a mettre a jour ou a invalider des copies d'un 

10 bloc de memoire. 

Si I'invalidation est choisie, il est par exemple connu d'ajouter a I'adresse de 
chaque bloc deux bits representatifs de I'etat du bloc dans la memoire. 
Selon ce protocole et dans chaque noeud, I'etat "M" correspond au cas ou une 
antememoire determinee est la seule detentrice d'une copie modifies d'un bloc, 

15 dite copie de reference, et ou il n'existe pas d'autres copies valides dans le 
systeme. Dans ce cas, I'antememoire detentrice de la copie ayant I'etat "M" est 
responsable de foumir et de mettre a jour la memoire centrale si elle veut se 
debarrasser de cette copie. Une copie ayant I'etat exclusif "E" est aussi la 
copie de reference detenue par une antememoire, mais dans ce cas, la 

20 memoire centrale en a une copie a jour. L'etat partage "S_" se rapporte a une 
copie ayant eventuellement plusieurs detenteurs, mais dont une copie est a 
jour dans la memoire centrale. Les detenteurs peuvent etre potentiels selon la 
strategic de gestion adoptee. Enfin, on trouve I'etat de copie invalide "I" quand 
I'antememoire a une copie du bloc qui n'est pas valide. Lorsqu'un processeur 

25 veut acceder a un bloc a I'etat T, son antememoire envoie une requete sur le 
bus systeme pour acquerir le bloc. Les autres antememoires et la memoire 
centrale couplees au bus systeme prennent connaissance de cette requ§te et 
reagissent en fonction de I'etat de la copie que la memoire correspondante 
possede. Ainsi, si une antememoire possede le bloc dans I'etat modifie "M", 

30 elle fournira le bloc au bus systeme, permettant ainsi au processeur 
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demandeur d'acceder aux donn6es et & son antemdmoire d'acqu6rir la copie 

de reference. II existe encore d'autres etats optionnels normalises ou non. 

Une telle gestion est particulierement adaptee quand plusieurs processeurs 

modifient frequemment les donnees emises via le bus systeme. 
5 Comme les zones memoires sont toutes accessibles de la m§me fagon par 

tous les processeurs, il n'y a plus de problems d'optimisation de la place des 

donnees dans une zone memoire determin6e. 

C'est ce qui caracterise 1'acces memoire unifomne UMA. 

Ce type de gestion est fiable tant que le bus systeme n'est pas sature par un 
10 trop grand nombre de processeurs emettant un grand nombre de requetes 

d'acc6s m6moire en m&me temps. 

Avec I'accroissement du niveau d'int6gration des composants, on peut ranger 
de plus en plus de processeurs sur une meme carte et la Vitesse des 
processeurs s'accroit de 55 % par an. r 
is Un article de Alan Charlesworth (Sun Microsystems) publie dans IEEE Micro de 
janvier/fevrier 1998, pages 39-49, decrit une architecture d'interconnexion 
entre plusieurs noeuds, adaptee a de telles contraintes. 

Cette architecture d'interconnexion utilise un protocole de commutation par 
paquets permettant de separer les requetes et les reponses et laissant se 

20 chevaucher sur le bus des transactions entre plusieurs processeurs. 

□'autre part, elle utilise un entrelacement de plusieurs bus de contrdle. Ainsi, 
I'utilisation de quatre bus d'adresses permet de controler quatre adresses en 
parallele. Uespace en memoire physique est divise par quatre et chaque bus 
d'adresses verifie un quart de la memoire. 

25 Avec une telle architecture, on peut connecter entre 24 a 64 processeurs 
utilisant 4 bus d'adresses et un autocommutateur, connu egalement sous la 
terminologie anglo-saxonne "crossbar", entre chaque noeud ; chaque noeud 
comportant au minimum quatre processeurs. 

(.'interconnexion des modules utilise le protocole de coherence de memoire 
30 defini precedemment et permet de faire des transactions entre modules entre 
deux niveaux d'interconnexion : 



- un premier niveau ^interconnexion, au niveau du noeud, convoyant le trafic 
interne du noeud, emanant des processeurs et des memoires, vers les 
adresses de sortie du noeud et des ports de donnees ; et 

- un deuxieme niveau ^interconnexion, de niveau superieur, transferant les 
adresses et les donnees entre les differents noeuds du systeme. 

Les requetes d'acces memoire (commandes et adresses) sont diffusees vers 
I'ensemble des noeuds pour consultation de leurs repertoires afin de localiser 
la donnee a laquelle un processeur du systeme veut acceder. 
Le temps d'acces memoire est independant du noeud ou la memoire physique 
est localisee. 

On distingue en outre deux types ^interconnexion suivant le type d'information 
traitee : une interconnexion dans I'espace d'adressage et une interconnexion 
dans I'espace des donnees. 

Un des inconvenients d'une telle architecture reside notamment dans 
I'utilisation d'un "crossbar" comportant un nombre important de points de 
connexions et done encombrant, centralise sur le fond de panier, sur lequel les 
noeuds constituant la machine sont connectes. 

Cette architecture necessite d'autre part un fond de panier "actif , e'est-a-dire 
comportant des composants logiques, par opposition a un fond de panier 
"passif ' sans composant logique. 

Dans ce type de machines, on est oblige de dupliquer le "crossbar" pour arriver 
a une bonne disponibilite et en cas de panne, on perd une partie de la bande 
passante utile. 

Une telle machine n'est done pas propice a I'adaptation de nouveaux modules 
multiprocesseurs pour differentes configurations de machines et s'oppose ainsi 
a la modularity recherchee. 

L'invention a notamment pour but de pallier ces inconvenients. 

Un but de la presente invention est de proposer une architecture 

^interconnexion modulaire permettant d'absorber les trafics de tous les 

modules multiprocesseurs avec une capacite variable en nombre de 

processeurs. 



A cet effet, I'invention a pour premier objet une architecture d' interconnexion 
modulaire pour machine muitiprocesseur extensible, basee sur une hierarchie 
de bus virtuelle, comportant un nombre determine de modules 
multiprocesseurs organises en noeuds et repartis sur au moins deux niveaux 

5 ^interconnexion : un premier niveau correspondent & Interconnexion des 
modules multiprocesseurs a I'interieur d'un noeud et un deuxieme niveau 
correspondent & r interconnexion des noeuds entre eux ; le premier niveau 
^interconnexion comportant des agents de connexion connectant les modules 
multiprocesseurs entre eux et gerant les transactions entre les modules 

10 multiprocesseurs, le deuxieme niveau d' interconnexion comportant des noeuds 
de connexion externes connectant les noeuds entre eux et gerant les 
transactions entre les noeuds. 

Uarchitecture ^interconnexion selon I'invention est caracterisee en ce que les 
agents de connexion et les noeuds de connexion externes ont respectiyement 

15 la m£me structure de base, la meme interface externe et mettent en oeuvre le 
meme protocole de gestion de coherence des antememoires des processors. 
L'invention a pour deuxieme objet un procede de suivi des blocs de donnees a 
I'interieur d'une architecture ^interconnexion definie ci-dessus, caracterjse en 
ce qu'il consiste, dans le premier niveau, a ne dupliquer dans les memoires 

20 associatives que les blocs de donnees modifies dans les antememoires des 
modules multiprocesseurs et a ne suivre que ces blocs modifies a I'interieur du 
noeud. 

Le procede consiste, dans le deuxieme niveau a ne dupliquer dans les 
memoires associatives des agents de connexion de chaque noeud de 
25 connexion externe que les bloc modifies et exportes, reciproquement importes, 
et a ne suivre que ces blocs modifies exportes, reciproquement importes, entre 
chaque noeud de la machine. 

L'invention a pour troisieme objet un procede d'extension de la capacite d'une 
machine comportant un premier nombre determine de processeurs de premier 
30 niveau organise en un premier nombre determine de modules multiprocesseurs 
et aptes a s'inserer dans une architecture d 1 interconnexion telle que definie ci- 
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dessus, caracterise en ce qu'ii consiste, a retirer un des modules 
multiprocesseurs de premier niveau de son agent de connexion et a connecter 
via cet agent de connexion laisse libre, un deuxieme nombre determine de 
processeurs organises en un deuxieme nombre determine de modules 
5 multiprocesseurs egalement aptes a s'inserer dans une architecture 
^interconnexion telle que definie ci-dessus. 

Enfin, I'invention a pour quatrieme objet une machine multiprocesseur 
multinodale extensible, caracterisee en ce qu'elle comporte une architecture 
^interconnexion telle que definie ci-dessus. 
10 L'invention a notamment pour avantage d'etre modulaire et extensible a 
volonte. 

En effet, elle permet en utilisant toujours la meme brique de base, typiquement 
un module quadri-processeur associe a son agent de connexion NCS, ou 
"Network ChipSet" en terminologie anglo-saxonne, d'adapter le nombre de 

15 processeurs necessaire pour couvrir une gamme tres large de machines telles 
que des machines UMA, quasi UMA, NUMA (Non UMA), Cluster (terme utiliser 
pour designer un ensemble de machines connectees au moyen d'un SAN ( 
System Area Network : reseau au niveau systeme),... et de supporter differents 
systemes Sexploitation (NT, UNIX ...). 

20 NT et UNIX sont des marques deposees et appartiennent respectivement a 
Microsoft et X/Open. 

La structure de la brique de base precedemment definie est generalement 
supportee par la meme puce de silicium. 

La presente invention s'affranchit d'autre part d'un "crossbar" actif, en fond de 
25 panier (fond de panier actif). 

D'autres avantages et caracteristiques de la presente invention apparaltront a 
la lecture de la description qui suit faite en reference aux figures annexees qui 
represented : 

- la figure 1, un exemple d'architecture d'interconnexion selon l'invention 
30 suivant un premier niveau d'interconnexion Ml ; 
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- la figure 2, le schema fonctionnel d'un agent de connexion NCS selon 
Tinvention ; 

- la figure 3, un exemple d'architecture ^interconnexion selon Tinvention 
suivant un deuxieme niveau ^interconnexion SI ; 

5 - la figure 4, Tarchitecture ^interconnexion des figures 1 et 3, developp6e 
suivant les deux niveaux ^interconnexion Ml et SI ; 

- la figure 5, le schema fonctionnel d'un noeud Nj de connexion externe NCE 
connectant le reseau de premier niveau Ml au reseau de deuxierne niveau SI, 
selon Tinvention ; 

10 - la figure 6, une architecture ^interconnexion de premier niveau Ml a cinq 
nceuds Nj dans laquelle un des noeuds Nj est utilise pour connecter le reseau 
de deuxierne niveau SI ; 

- la figure 7, le schema bloc de Tespace de commande et d'adressage de 
Tagent de connexion NCS de la figure 2 ; ^ 

is - la figure 8, une architecture ^interconnexion selon Tinvention dans laquelle 
le deuxi6me niveau ^interconnexion SI est reduite a un lien. r 
La figure 1 illustre schematiquement une architecture d' interconnexion pour 
une machine quasi UMA, localisee typiquement sur le fond de panier d'une 
armoire informatique. 

20 Dans cet exemple, cinq modules multiprocesseurs QPi, avec i = 0 a 4, sont 
interconnectes au moyen d'un module ^interconnexion MI. 
Chaque module multiprocesseur QPi comporte quatre processeurs et leurs 
antememoires respectives, non representes, et forment un module quadri- 
processeur. 

25 Les modules quadri-processeurs QPi sont connectes au module 
^interconnexion Ml respectivement au moyen d'agents de connexion reseau 
NCSL 

On definit par Xli (external Interface) les interfaces externes entre les modules 
quadri-processeurs QPi et leurs agents de connexion respectifs NCSi. Elles 
30 sont symbol isees respectivement par un segment de droite en trait interrompu. 
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On considerera que Pensemble forme par le module quadri-processeur QPi, 
son agent de connexion NCSi et son interface externe Xli, constitue une 
"brique de base" de premier niveau de Parchitecture d' interconnexion selon 
Pinvention. 

5 Le module d' interconnexion Ml dans I'exemple illustre comporte cinq briques de 
base de premier niveau QBi t delimitees respectivement par une ligne fermee 
discontinue. 

Chaque brique de base QBi est reliee aux quatre autres via respectivement 
quatre liaisons point-a-point, non referencees pour ne pas surcharger la figure. 

10 Ces liaisons sont considerees au niveau protocolaire comme autant de bus 
virtuels. II y a ainsi, dans I'exemple decrit, quatre bus virtuels et done quatre 
niveaux d'entrelacement traites par chaque agent de connexion NCSi. Chaque 
bus permet ainsi quatre acces, ou transactions, a chaque cycle d'horloge. 
Le protocols selon Pinvention permet de gerer les transactions 6mises sur le 

15 module ^interconnexion Ml tous les quatre cycles d'horloge. 
II est base sur le principe suivant : 

Quand un processeur emet une requete sur son bus, par exemple : lire 
I'adresse de Pantememoire contenant le bloc de donnees "a", les seules 
briques QBi susceptibles d'etre elues sont cedes ou il y a une antememoire 

20 correspondant a cette adresse. 

Selon Pinvention, on ne veut permettre la transaction que vers la brique QBi 
comportant effectivement le bloc "a" dans une de ses antememoires et ne 
consulter que les briques QBi ayant cette adresse sans perturber les autres. 
Pour cela chaque agent de connexion NCSi de I'architecture selon Pinvention, 

25 illustre schematiquement a la figure 2, comporte une memoire associative ou 
quasi associative DDi, egalement connue sous la terminologie anglo-saxonne 
de "duplicate directory", delimitee par une ligne fermee discontinue. 
Chaque memoire associative DDi contient une copie du contenu des 
antememoires des processeurs d'une brique de base QBi a laquelle elle est 

30 dediee. 



Le contenu des antememoires est organise selon quatre niveaux 
d'entrelacement ddO a dd3 correspondant respectivement aux quatre 
processeurs de la brique de base QBi. 

Chaque memoire DDi contient ainsi I'ensemble des repertoires, ou "directories" 
5 en terminologie anglo-saxonne, des quatre processeurs des modules QBi, 
accessibles par une adresse. 

Les memoires associatives DDi sont de taille fixe determinee en fonction du 
nombre de processeurs de la brique de base QBi et I'etat des memoires DDi 
est indicatif de la presence des derniers blocs de donnees modifies dans les 

10 antememoires de la brique de base QBi. 

Chaque memoire associative DDi joue ainsi le r6le d'un filtre vis-a-vis de la 
brique de base QBi a laquelle elle est dediee en ce sens qu'une transaction 
n'est effectuee uniquement quand une memoire associative DDi comporte la 
derniere copie modifiee du bloc "a". ir 

15 Les lignes en pointilles materialisent le trajet, ou "snooping" en terminologie 
anglo-saxonne, suivi par le protocole pour consulter I'etat des memoires 
associatives DDi avant de debuter une transaction. 

L'agent de connexion NCSi comporte, a droite de la figure, I'interface externe 
XI pour se connecter a un module quadri-processeur QPi. ; 
20 II est couple, a gauche de la figure, via les quatre liaisons entrantes -et 
sortantes de la figure 1, aux quatre autres briques QBi du module 
^interconnexion Ml. 

Le protocole selon I'invention est base sur le principe selon lequel seuls des 
blocs modifies sont dupliques dans les memoires associatives DDi des agents 
25 de connexion NCSi. 

On peut ainsi avec une architecture sur un niveau, conforme a celle de la 
figure 1, et des agents de connexion NCS conformes a la figure 2, 
interconnecter et traiter le flux de transactions echange typiquement entre 4 a 
20 processeurs. 

30 On considerera dans la suite de la description que cette architecture definit un 
premier niveau Ml d'une architecture modulaire selon I'invention. 
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La figure 3 illustre suivant un schema similaire a celui de la figure 1, un 
deuxieme niveau de ('architecture modulaire definie ci-dessus qui integre le 
premier niveau Ml pouvant etre considere comme une brique de base pour le 
deuxieme niveau SI. 

Selon ce mode de realisation, cinq briques de base HBj, avec j=0 a 4, de 
deuxieme niveau sont connectees au systeme d'interconnexion SI via leurs 
agents de connexion respectifs NCS"j et leurs interfaces respectives Xl"j. Le 
systeme d'interconnexion SI se comporte vis-a-vis des briques HBj du 
deuxieme niveau comme le module d'interconnexion Ml vis-a-vis des briques 
QBi du premier niveau. 

La figure 4 illustre schematiquement une architecture similaire a celle illustree 
a la figure 3 developpee sur les deux niveaux Ml et SI. Elle permet 
d'interconnecter typiquement jusqu'a 80 processeurs pour des briques de base 
de deuxieme niveau HBj comportant respectivement 16 processeurs. Chaque 
brique de base de deuxieme niveau HBj comporte respectivement quatre 
briques de base de premier niveau QBi comportant eux-memes respectivement 
4 processeurs. 

L'extension de la capacite d'une machine consiste a augmenter le nombre de 
ses processeurs. 

Le precede d'extension selon I'invention, consiste dans une premiere etape, a 
retirer un des cinq modules quadri-processeurs QPi de premier niveau, le 
module QP3 dans I'exemple considere, de son agent de connexion NCS3 et, 
dans une deuxieme etape, a connecter I'architecture de deuxieme niveau SI, 
en utilisant I'agent de connexion laisse libre, NCS3 dans I'exemple illustre a la 
figure 1 , que I'on rebaptisera NCS'j, avec j=0 dans I'exemple considere. 
Le systeme d'interconnexion SI est connecte au module d'interconnexion Ml via 
un agent de connexion NCS"0 dispose tete-beche par rapport a I'agent NCS'O ; 
I'interface externe XI'O se situant physiquement entre le premier et le deuxieme 
agent de connexion NCS'O et NCS"0. 



Les deux agents de connexion NCS'j et NCS"j ( mont6s t§te-bdche, illustr6s 
sch6matiquement a la figure 5, sont alors vus par le systeme d' interconnexion 
SI comme un seul agent de connexion NCS"j comme represents a la figure 3. 
Les deux agents de connexion NCS'j et NCS M j, montes tete-beche, et leur 
5 interface Xl'j definissent un ncsud de connexion externe NCEj par lequel 
transient les transactions entre les differents processeurs du premier niveau 
Ml et ceux du deuxieme niveau SI suivant le protocole selon I'invention. 
Le protocole selon I'invention permet de gerer la coherence des differentes 
antememoires r§parties sur les deux niveaux d' interconnexion Ml et SI en 
10 consultant les memoires associatives respectives des agents NCS'j et NCS M j. 
Une des particularites du protocole selon invention est sa capacite de suivi 
aussi bien pour une brique de base QBi du premier niveau Ml que pour 
Pensemble des briques de base QBi et HBj des deux niveaux Ml et SI 
Pour ppuvoir absorber le trafic entre les deux niveaux Ml et SI tout en 
15 conservant une m§me bande passante Xli et XP'j et une brique de base 
identique pour les deux niveaux Ml et SI, c'est-3-dire des memoires 
associatives DDi, DD'j et DD"j de m&me dimension quelque soit le nombre de 
niveaux, la latence du deuxieme niveau SI est choisie superieure d celle du 
premier niveau ML Elle est typiquement egale a un cycle d'horloge pour le 
20 premier niveau Ml et egale a deux cycles d'horloge pour le deuxieme niveau SI. 
II est ainsi possible de realiser a partir d'une architecture d' interconnexion 
modulaire selon I'invention et conforme aux exemples illustres aux figures 1 a 
5 f au moins deux types de machines : une premidre machine de 4 a 20 
processeurs et une deuxieme machine & plus de 60 processeurs. 
25 On definit deux modes distincts de parametrage d'un noeud de connexion 
externe NCEj en fonction du niveau de I'architecture ^interconnexion ou se 
situe I 1 information recherchee : le mode Ml et le mode SI. 
Selon le principe de suivi etabli dans le mode Ml, seuls les blocs modifies sont 
dupliques. Dans le mode SI, le suivi n'est effectue que sur les blocs modifies et 
30 exportes. Uexportation de blocs modifies s'entend du sens allant du premier 
niveau Ml vers le deuxieme niveau SI, soit du niveau inferieur vers le niveau 
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superieur. Symetriquement, r importation de blocs modifies s'entend du sens 
ailant du deuxieme niveau SI vers le premier niveau Ml, soit du niveau 
superieur au niveau inferieur. 

Quand un processeur d'un premier noeud NO demande a lire en exclusivite 
5 (lecture et invalidation/read invalidate "a") un bloc "a" situe dans un autre 
noeud Nj, la requete est alors diffusee a I'ensemble des nceuds Nj via les 
quatre bus virtuels du systeme ^interconnexion SI. 

Cette diffusion peut etre assimilee au mode de diffusion connu sous la 
terminologie anglo-saxonne "broadcast" s'appliquant a un multibus ; les dix 
10 liaisons point-a-point du systeme ^interconnexion SI se comportant comme 
quatre bus virtuels au sens protocolaire. 

Le noeud de connexion externe NCEj se comporte alors comme un agent 
externe quand il est parametre en mode externe. 

Dans cette configuration (multinodale), Tacquittement d'une commande 
15 d'invalidation est I'agregat, dans I'agent externe du module requerant, des 

acquittements partiels emis par les agents extemes des autres noeuds Nj. 

L'agent NCS" a la meme fonction, pour le deuxieme niveau (16 processeurs), 

que l'agent NCS pour le premier niveau (4 processeurs). 

Les principales differences de traitement entre I'agent NCSi et I'agent NCS"j 
20 sont repertoriees synthetiquement dans le tableau suivant en ce qui concerne 

les aspects de latence des liaisons, de memoire associative, de commande 

d'invalidation et de lecture et d'invalidation : 





NCSi (Ml) 


NCS"j (SI) 


latence des liaisons 


1 cycle d'horloge 
(fond de panier) 


2 cycles d'horloge 
(cables) 


memoire associative 


duplication des 4 
antememoires des 
processeurs 


duplication partielle des 16 
antememoires des 
processeurs du noeud (ce 
sont uniquement les blocs 
importes et modifies qui 
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sont suivis avec precision 


invalidation 


propagation filtree vers les 
antememoires des 4 
processeurs du module 


propagation vers les NCSi 
des 4 briques du module 
(acquirement explicite au 
moyen d'une reponse sur 
le reseau du module Ml) 


lecture et invalidation 


la fourniture des donnees 
est conditionnee par 
racquittement de 
['invalidation 


son acquirement attend 
racquittement des noeuds 
du systeme ; pas de 
blocage des donnees 



De la meme fagon, le tableau ci-dessous r6pertorie synthetiquement les 
differences de traitement entre un agent NCSi et un agent NCS'j en ce qui 
concerne les aspects de memoire associative, de commande ^invalidation et 
de commande de lecture et invalidation. ^ 
L'agent NCS'j est dispose a la meme place qu'un agent NCSi et traite des 
trafics emanant de 64 processeurs au lieu des 4 processeurs traites par l'agent 
NCSi. 

Uarchitecture consideree pour ce tableau est illustree a la figure 6. ^ 





NCSi 


NCS'j 


memoire associative 


duplication des 4 
antememoires des 
processeurs 


duplication partielle des 64 
antememoires (ce sont 
uniquement les blocs 
importes et modifies qui 
sont suivis avec precision 


invalidation 


propagation filtree vers les 
antememoires des 4 
processeurs du noeud 


propagation vers les 64 
processeurs du deuxieme 
niveau (avertissement 
explicite) 
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lecture et invalidation 


la fourniture des donnees 


son acquittement attend 




est conditionnee par 


Tacquittement des ncsuds 




I'acquittement de 


du systdme ; pas de 




Tinvalidation 


blocage des donnees 



Les interfaces externes Xli et Xl'j ont des bandes passantes similaires. 
Quand un bloc demande est identifie dans une des memoires associatives DDi 
des briques de base QBi, le bloc demande est "exporte" de I'antememoire 
5 contenant la demiere copie du bloc, mise a jour, vers le processeur 
demandeur. La nouvelle copie valide se trouve alors dans I'antememoire du 
processeur demandeur. 

C'est le protocole de gestion de coherence selon I'invention qui recherche dans 
un premier temps dans quelle memoire associative DDi se trouve le bloc 

10 modifie puis dans un deuxieme temps qui recherche quelle memoire 
associative DD'j et DD"j du nceud de connexion externe NCEj contient 
reformation : bloc "a" modifie et exporte. La brique de base QBi contenant le 
processeur demandeur est egalement identifiee au sein du nceud Nj. 
Le principe est symetrique pour les blocs importes. Par ce principe de suivi 

15 base sur la consultation des memoires associatives des agents de connexion 
NCSi et des noeuds de connexion externes NCEj, la bande passante peut 
rester constants pour les deux niveaux et absorber des trafics disparates entre 
les differentes briques de base de premier et de deuxieme niveau QBi et HBj. 
Le protocole de gestion de coherence memoire selon I'invention est ainsi 

20 capable de permettre a I'architecture d'absorber un trafic de transactions dans 
le pire cas ou quatre des cinq briques de deuxieme niveau HBj rechercheraient 
simultanement un bloc dans la cinquieme brique. 

La figure 7 illustre le schema bloc d'un agent de connexion NCSi selon 
I'invention considers dans I'espace de commande et d'adressage. 
25 La description de ce schema permettra de mieux comprendre le protocole de 
gestion de coherence mis en osuvre par I'agent de connexion NCSi selon 
I'invention. 
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Toutes les principales fonctions mises en oeuvre clans les premier et deuxieme 
niveaux Ml et SI sont representees. 

Afin de simplifier la figure, seuls les blocs se rapportant au premier niveau 
(i = 0) des quatre niveaux d'entrelacement sont representes. 

5 Un premier bloc RL realise un classement logique des requ§ies externes 
regues a I'entree de I'agent (a gauche suivant la figure). Les requetes sont 
ordonnees de la meme fagon quelque soit la brique de base 6mettrice. Pour 
chacune des entrees, le bloc RL a la capacite de prendre en compte plusieurs 
requites re$ues simultanement pour eviter la perte de requStes en cas d'arrdt 

10 inopine du flux de requetes. 

Des filtres logiques RFi, regoivent respectivement les requites, dans I'ordre 
impose par le bloc RL. lis filtrent respectivement toutes les requites attributes 
au m£me niveau d'entrelacement i et au meme identifiant systeme de la brique 
de base. 

is Des blocs d'arbitrage ARBi sont couple respectivement en sortie des filtre RFi. 

Us selectionnent une requete suivant un algorithme determine par exemple un ^ 
algorithme equitable du type circulaire, "Round Robin Algorithm" en 
terminologie anglo-saxonne, dans lequel la demidre requite elue devient la . 
moins prioritaire. 

20 Des memoires associatives DDi sont respectivement couplees en sortie des 
blocs d'arbitrage ARBi. Chaque memoire associative DDi contient une copie 
ddij du contenu de I'antememoire de chaque processeur d'une brique de base. 
En mode SI, les memoire associatives DD"j et DD"j contiennent respectivement 
soit une copie des blocs modifies exportes soit une copie des blocs modifies 

25 importes suivant le sens de la transaction entre les deux niveaux Ml et SI. 

Pour forcer une entree, c'est-a-dire imposer une nouvelle donnee sur une 
entree, une commande d'invalidation ou de lecture et invalidation est 
necessaire pour pouvoir reutiliser une antememoire deja validee dans la 
memoire associative DDi. 




* 
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Pour cela, des extensions DDEAMi aux memoires associatives DDi sont 
couplees sur leurs sorties et sont destinees a retarder les transactions 
destinees a transiter sur le bus en attendant que le bus soit libre (idle). 
Toutes les requetes sont serialisees en sortie des blocs d'arbitrage ARBi et 
5 sont ensuite stockees dans une memoire tampon SERB dans laquelle elles 
sont agencees suivant leur statut (internal/external, home/remote, hit/miss, 
shared/exclusive/modified), dans quatre files d'attente Fi correspondant 
respectivement aux quatre niveaux d'entrelacement i = 0 a 3. A chaque cycle 
d'horloge, quatre requetes peuvent etre ainsi acceptees. 

10 Un multiplexeur MUX1 , a droite de la figure, recoit les requetes externes des 
quatre files d'attente Fi et apres validation par les extensions memoire 
DDEAMi, les requetes sont emises, en sortie de I'agent de connexion NCS 
correspondant egalement a la sortie du multiplexeur MUX1 , une par une sur le 
bus de la brique de base destinataire. 

is Des blocs UAMi assurent la mise a jour des memoires associatives DDi. II y a 
un bloc par memoire associative. Ces blocs UAMi stockent les mises a jour qui 
doivent etre effectuees dans les memoires associatives DDi et elles sont 
executees quand il n'y a pas de trafic ou, simultanement, par toutes les brrques 
de base. 

20 Des blocs memoire IRIPi stockent toutes les transactions destinees a une 
meme brique de base et qui doivent attendre un evenement de fin de 
transaction du type : 

- fin d'acces en memoire principale (lecture d'une transaction S, I) ; 

- mise a jour de la memoire principale (lecture d'une transaction partielle 
25 d'ecriture M, E). Dans le cas E, les donnees peuvent etre invalidees 

signifiant ainsi que le detenteur potentiel ne detient plus les donnees et que 
le "home", c'est-a-dire I'antememoire locale contenant le bloc de donnees, 
doit les lui fournir ; 

- fin d'emission d'une commande d'invalidation ; 

30 et les transactions qui ont abouti a un "hit E" ou "hit M" dans la brique de base, 
c'est-a-dire un acces qui a abouti dans I'etat E, ou un acces qui a abouti dans 
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P6tat M, et qui doivent attendre un evenement determine pour les terminer : fin 
de lecture et invalidation sur le bus systeme de la brique de base. 
Un bloc logique I A regoW les reponses concernant les requites internes, 
delivrees par les blocs d'arbitrage ARBi, et indique pour chacune d'elles si 
5 elles ont abouti "hit" ou echoue "miss" (differer : attendre son tour ou reessayer 
pour cause de conflit). 

Un bloc ESA regoit les reponses aux consultations des memoires associatives 
DDi et diffuse ces resuitats vers les autres briques de base. 
Un bloc SAH report et analyse les reponses a des consultations de types 
10 suivants : 

- consultation de type lecture (Read) : 

- valide ou efface une demande de lecture anticipee et attend une mise a 
jour du bloc (mode Ml) ; 

- prepare une reponse a I'emetteur de requ&te et au processeur detenteur 
15 du bloc demande s'il est different (mode SI) ; w 

- consultation de type ecriture partielle (Partial Write) : 

- prepare la mise a jour du bloc du processeur detenteur : ecriture dans le 
bloc (mode SI). 

Un bloc HVB regoit des informations sur I'etat de remplissage de certains blocs 
20 memoire tels que les blocs UAMi, DDEAMi et informe les autres briques de 
base en cas du prochain debordement d'un de ces blocs pour qu'elles cessent 
d'emettre des requetes a destination de ces blocs. 

Une requete en ecriture partielle (PartialWrite) est vue par une brique de base 

distante comme une requete de lecture et invalidation. 
25 Un bloc generateur d'ecriture WG recueille les requetes emises sur le bus, en 

sortie de I'agent de connexion, correspondent egalement a la sortie du 

multiplexeur MUX1 , et met a jour la brique de base locale en fusionnant les 

donnees qui ont ete ecrites partiellement et les donnees qui ont ete lues. 

Des blocs ORlPi stockent toutes les operations demandees par une brique de 
30 base deterrninee (requete en lecture en attente de donnees, requete 

^invalidation en attente d'acquittement, ...). Ces blocs examinent les requetes 
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destinies £ chaque nceud Nj et emanant d'une brique de base t non 
representee et qui serait a droite sur la figure, pour detecter une collision entre 
les requites locales sortantes (outbond) en cours de traitement et les requetes 
distantes entrantes (inbond). 

Les sorties respectives aux blocs ORlPi et IRIPi sont multiplexees par des 
multiplexeurs MUXi dont les sorties sont respeclivement couplees aux entrees 
des blocs UAMi. Les mises a jour des memoires DDi sont effectuees soit sur 
une transaction emanant des requetes externes via les blocs IRIPi et qui 
rentrent done sur Pagent de connexion NCS (en haut, a gauche de la figure), 
par exemple quand un processeur d'un nceud Nj determine veut lire un bloc 
determine, soit sur une transaction emanant des requites internes via le bloc 
ORlPi et qui sortent de Pagent de connexion NCS (en bas a gauche de la 
figure), par exemple quand un bloc est "expulse" du cache d'une antememoire 
d'un processeur determine. 

Un bloc CM recueille Pidentifiant systeme de la brique de base ou se trouve 
Pespace memoire recherche (Pantememoire du processeur hebergeant le bloc 
objet de la requdte est la !). 

Un bloc SAH re$oit sur une premiere serie d'entrees les reponses aux 
consultations des autres briques de base. II effectue la synthese de ces 
reponses, ce qui permet de valider ou d'invalider les lectures externes 
anticipees et aussi de savoir si une requete sera honoree en interne ou en 
externe. 

En fait, les entrees du bloc SAH local correspondent aux sorties des blocs ESA 
des autres briques de base. 

Un multiplexer MUX3. en bas a gauche de la figure, regoit les requetes 
internes et les operations d'ecriture bloc liees a des ecritures partielles 
delivrees par le bloc WG. II permet de serialiser les requetes qui sont ensuite 
diffusees vers les quatre autres briques de base, respectivement sur les quatre 
liens reliant la brique de base emettrice aux autres briques, via respectivement 
quatre registres de sortie REGO a REG3. 
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Un cinquieme registre REGin, a droite de la figure, est le registre d'entree de 
I'agent NCS. II recoit les requetes internes arrivant sur la brique de base. II est 
commande par I' information delivree par le bloc logique IA. 
Un meme agent de connexion NCS dont une description fonctionnelle vient 
5 d'etre donnee ci-dessus peut etre utilise dans trois applications differentes : 

- pour la connexion d'un module quadri-processeur QPi au module Ml 
(figure 1) ; 

- pour la connexion d'un noeud Nj au systeme SI (figures 3, 4 et 6) ; et 

- pour la connexion de deux noeuds Nj (figure 8). 

10 Ces trois applications sont mises en ceuvre par un meme composant (chipset). 
Le traitement et le trajet des donnees par I'agent de connexion NCS ne sont 
pas representes. 

lis se limitent au routage des donnees soit de rinterface XI vers le module Ml 
ou le systeme SI, soit dans le sens inverse, au multiplexage des donnees 
is provenant du module Ml ou du systeme SI. ,* 
Le traitement des donnees est commande par I'espace d'adressage de I'agent 
de connexion NCS. Cet espace supervise tous les flux entrant et sortant des 
donnees et effectue si necessaire, la traduction entre etiquettes de donnees 
externes ou internes. 

20 L' interface XI est une interface demultiplexee et comporte done une partie 
commande/adresse et une partie donnees. 

Dans le but d'eviter qu'une reponse de lecture double une commande 
d' invalidation, la reponse de lecture doit attendre que toutes les commandes, 
serialisees avant la requete en lecture, aient ete emises sur le bus systeme du 
25 module quadri-processeur. 

La figure 8 illustre une variante de realisation d'une architecture selon 
I' invention. 

Cette variante correspond a une configuration intermediate limitee a 
I'interconnexion entre deux noeuds Nj de cinq modules quadri-processeurs QPi 
30 chacun. 
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Dans cette configuration, sur un des module QPi de chaque noaud Nj on ne 
conserve uniquement que I'agent de connexion NCS' et on connecte les deux 
noeuds Nj entre eux via leurs agents de connexion NCS' respectifs. 
On obtient ainsi une machine 32 processeurs avec un second niveau 
5 d'interconnexion se reduisant a un lien. 

Ainsi, une interconnexion sans reseau systeme SI est possible en utilisant 
seulement deux agents de connexion NCS', couples tete-beche, avec pour 
seule interface externe une interface de type XT. 

La latence du systeme est amelioree et la bande passante XI' permet de 
10 supporter une equirepartition des donnees entre les deux nceuds Nj. On peut 
ainsi etendre le nombre de processeurs de 20 a 32 sur un meme support de 
systeme Sexploitation d'une machine NUMA ou quasi UMA. 



♦ 
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REVEN PIC ATION S 

1. Architecture ^interconnexion modulaire pour machine multiprocesseur 
5 extensible, basee sur une hierarchie de bus virtuelle, comportant un nombre 
determine de modules multiprocesseurs (QPi) organises en nceuds (Nj) et 
repartis sur au moins deux niveaux d'interconnexion : un premier niveau (Ml) 
correspondant a I' interconnexion des modules multiprocesseurs (QPi) a 
Pinterieur d'un nceud (Nj) et un deuxieme niveau (SI) correspondant a 
10 Interconnexion des nceuds (Nj) entre eux ; le premier niveau d'interconnexion 
(Ml) comportant des agents de connexion (NCSi) connectant les modules 
multiprocesseurs (QPi) entre eux et gerant les transactions entre les modules 
multiprocesseurs (QPi), le deuxieme niveau d'interconnexion (SI) comportant 
des nceuds de connexion externes (NCE) connectant les nceuds (Nj) entre eux 
15 et gerant les transactions entre les nceuds (Nj), caracterisee en ce que les 
agents de connexion (NCSi) et les nceuds de connexion externes (NCEj) ont 
respectivement la meme structure de base, la meme interface externe (XI) et 
mettent en ceuvre le meme protocole de gestion de coherence des 
antememoires des processeurs. 

20 

2. Architecture selon la revendication 1 , caracterisee en ce que chaque noeud 
de connexion externe (NCEj) comporte deux agents de connexion identiques 
(NCSi) couples tete-beche ; Pun des deux agents (NCS'j) recevant et filtrant les 
transactions emises par le noeud (Nj) auquel il est couple, et I'autre (NCS"j) 

25 recevant et filtrant les transactions emises par les autres noeuds (Nj) auxquels 
il est couple. 

3. Architecture selon la revendication 1 , caracterisee en ce que chaque agent 
de connexion (NCSi) comporte une memoire associative (DDi) de taille fixe 

30 determinee en fonction du nombre de processeurs du module multiprocesseur 
(QPi) auquel est couple Pagent de connexion (NCSi) ; Petat des memoires 
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(DDi) etant indicatif de la presence des derniers blocs de donnees modifies 
dans Ies antememoires du module multiprocesseur (QPi). 

4. Architecture selon la revendication 2, caracterisee en ce que Ies agents de 
connexions (NCS'j et NCS"j) comportent respectivement une memoire 
associative (DD'j et DD"j) de taille fixe determine en fonction du nombre de 
processeurs des modules multiprocesseurs (HBj) auxquels ils sont couples ; 
I'etat des memoires associatives (DD'j et DD"j) etant indicatif de la presence 
des derniers blocs de donnees modifies exportes, et reciproquement importes. 



5. Architecture selon la revendication 2, caracterisee en ce que Ies premier et 
deuxieme agents de connexion tete-beche (NCS'j et NCS"j) n'acceptent des 
transactions que pour Ies blocs qui sont modifies dans leurs memoires 
associatives respectives (DD'j et DD"j) ; Ies blocs de donnees modifies dans le 
15 premier agent de connexion (NCS'j) sont exportes vers le ou Ies modules 
multiprocesseurs demandeur et, reciproquement, Ies blocs de donnees 
modifies dans le deuxieme agent de connexion (NCS") sont importes du ou des 
modules detenteur des blocs. 

20 6. Architecture selon I'une quelconque des revendications 1 a 5, caracterisee 
en ce que la latence du deuxieme niveau d'interconnexion (SI) est le double de 
la latence du premier niveau d'interconnexion (Ml). 

7. Precede de suivi des blocs de donnees a I'interieur d'une architecture 
25 d'interconnexion selon I'une quelconque des revendications 1 a 6, caracterise 
en ce qu'il consiste, dans le premier niveau, a ne dupliquer dans Ies memoires 
associatives (DDi) que Ies blocs de donnees modifies dans Ies antememoires 
des modules multiprocesseurs (QPi) et a ne suivre que ces blocs modifies a 
I'interieur du noeud (Nj). 
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8. Proced§ de suivi des blocs de donnees a I'interieur d'une architecture 
^interconnexion selon Tune quelconque des revendications 1 & 6, caracterise 
en ce qu'il consiste, dans le deuxieme niveau (SI), & ne dupliquer dans les 
m§moires associatives (DD'j et DD"j) des agents de connexion (NCS 1 et NCS M j) 

5 de chaque noeud de connexion externe (NCEj) que les bloc modifies et 
exportes, r§ciproquement importes, et a ne suivre que ces blocs modifi6s 
exportes, r6ciproquement importes, entre chaque nceud (Nj) de la machine. 

9. Proc6d6 d'extension de la capacity d'une machine comportant un premier 
10 nombre determine de processeurs de premier niveau (Ml) organist en un 

premier nombre determine de modules multiprocesseurs (QPi) et aptes d 
s'inserer dans une architecture ^interconnexion selon Tune quelconque des 
revendications 1^6, caracterise en ce qu'il consiste, a retirer un des modules 
multiprocesseurs (QPi) de premier niveau de son agent de connexion (NCSi), 
is et d connecter via cet agent de connexion laisse libre, un deuxidme nombre 
determine de processeurs organises en un deuxidme nombre determine de 
modules multiprocesseurs egalement aptes a s'inserer dans une architecture 
d'interconnexion selon Tune quelconque des revendications 1 a 6. 

20 10. Proced§ selon la revendication 9, caracterise en ce que le deuxfeme 
nombre determine de processeurs etant organise en un deuxfeme nombre 
determine de modules multiprocesseurs de deuxieme niveau (SI), il consiste a 
le connecter d Tagent de connexion (NCSi) du premier nombre determine de 
processeurs de premier niveau (Ml) par Tintermediaire d'un des agents de 

25 connexion (NCS"j) de deuxieme niveau. 

11. Precede selon la revendication 10, caracterise en ce que le deuxieme 
nombre determine de processeurs etant egalement de premier niveau (Ml), il 
consiste a connecter les agents de connexion (NCS') respectifs aux premier et 
30 deuxieme nombre determine de processeurs ; le deuxieme niveau (SI) se 
resumant en une liaison unique. 
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12. Machine multiprocesseur multinodale extensible, caracterisee en ce qu'elle 
comporte une architecture d'interconnexion selon I'une quelconque des 
revendications 1 a 6. 
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FIG.4 
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